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摘 要 研究 者 关于 单 题 项 测量 的 争论 已 入。 支持 者 认为 单 题 项 测量 具有 时 间 和 效率 上 的 优 
势 ， 而 反对 者 则 认为 单 题 项 测量 的 信 效 度 均 无 法 得 到 保障 。 通 过 定性 和 定量 的 回顾 ， 归 纳 了 
单 题 项 测量 的 优 缺 点 , 齐 析 了 以 往 研 究 对 单 题 项 测量 的 种 种 质疑 并 逐一 进行 回应 。 通 过 系统 
梳理 , 发 现 单 题 项 测量 具有 可 以 接受 的 信和 度 和 效 度 水 平 , 且 多 题 项 测量 的 效 标 关 联 效 度 并 没 
有 显著 优 于 单 题 项 测量 。 最 后 ,指出 了 单 题 项 测量 开发 和 使 用 过 程 中 应 该 注意 的 事项 。 尽管 
多 题 项 测量 仍 是 当前 研究 界 的 主流 测量 方法 , 但 未 来 研究 者 应 当 更 加 客观 地 看 待 单 题 项 测量 。 
学 界 应 当 充 分 理解 单 题 项 测量 潜在 的 优点 和 适用 范围 , 从 而 使 单 题 项 测量 在 管理 心理 学 和 社 
会 科学 研究 中 发 挥 其 应 有 的 作用 。 
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构 念 测量 为 心理 学 和 社会 科学 的 发 展 芮 定 了 坚实 的 方法 论 基 础 。 在 测量 构 念 的 时 候 , 研 
究 者 通常 需要 在 单 题 项 测量 和 多 题 项 测量 之 间 做 出 选择 (Ang & Eisend, 2017; 
Diamantopoulos, Sarstedt, Fuchs, Wilczynski, & Kaiser, 2012; Fuchs & Diamantopoulos, 2009; 
Sarstedt, Diamantopoulos, & Salzberger, 2016). 单 题 项 测量 通常 是 指 仅 通过 一 个 测量 指标 来 评 
价 研 究 构 念 的 方法 ， 具 有 填 答 时 间 短 、 成 本 低廉 等 特点 (Bergkvist & Rossiter, 2007); 而 多 题 
项 测量 则 是 通过 两 个 及 以 上 的 题 项 来 评价 研究 构 念 的 方法 , 其 测量 的 精度 和 准确 度 往往 更 高 
(Diamantopoulos et al., 2012; Nair, Ataseven, Habermann, & Dreyfus, 2016). 

虽然 两 种 测量 方式 都 得 到 了 广泛 的 应 用 , 但 二 者 在 实践 界 和 理论 界 的 普及 程度 却 存在 较 
大 差异 。 在 应 用 研究 领域 ， 管 理 咨 询 者 和 实务 研究 者 更 加 偏爱 单 题 项 测量 ， 因 为 它 能 够 大 幅 
降低 受 访 者 的 拒 访 率 ， 降 低 数 据 收集 和 处 理 的 成 本 (Bergkvist & Rossiter, 2007; Hoeppner, 
Kelly, Urbanoski, & Slaymaker, 2011). 然而 , 在 学 术 研 究 领 域 , 研究 者 更 加 偏爱 多 题 项 测量 ， 
‘= 有 研究 指出 多 数 研究 构 念 的 题 项 数 介 于 四 到 六 个 之 间 (Hinkin, 1998), 且 伴 随 着 结构 方程 模型 
© 分 析 技 术 的 普及 ， 多 题 项 测量 愈 发 受到 学 界 的 欢迎 (Diamantopoulos et al., 2012). MASH, 
有 相当 部 分 的 研究 者 认为 单 题 项 测量 是 不 全 面 、 不 可 信 的 ， 其 信 效 度 都 无 法 得 到 有 效 保证 
(Credé, Harms, Niehorster, & Gaye-Valentine, 2012; Roelen et al., 2014; Roelen et al., 2015). 

由 于 多 题 项 测量 在 学 术 研 究 领 域 表 现 出 了 压倒 性 的 优势 ,一些 研究 者 开始 尝试 比较 单 题 
项 测量 和 多 题 项 测量 的 优 劣 ， 以 检验 传统 研究 者 对 单 题 项 测量 的 质疑 是 否 正确 。 从 二 十 世纪 
五 十 至 八 十 年 代 的 零星 比较 (Aiken, 1980; Churchill & Peter, 1984; Gorsuch & Mcfarland, 1972; 
Mosel，1953)， 到 近 二 十 年 的 定性 和 定量 综述 (Diamantopoulos et al., 2012; Fuchs & 
Diamantopoulos, 2009; Wanous, Reichers, & Hudy, 1997)， 越 来 越 多 的 研究 证 据 表 明 ， 对 于 那 
些 界定 足够 清晰 的 构 念 而 言 ， 多 题 项 测量 并 没有 显著 地 优 于 单 题 项 测量 。 
自从 Wanous 等 (1997) 对 工作 满意 度 的 单 题 项 测量 进行 了 系统 回顾 之 后 ， 单 题 项 测量 日 
益 受 到 了 学 术 研究 者 的 重视 和 关注 ， 其 开发 流程 和 使 用 方法 也 日 趋 完 善 (Fisher Matthews, & 
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Gibbons, 2016; Fuchs & Diamantopoulos, 2009)。 然 而 , 目前 国内 单 题 项 测量 的 使 用 较为 混乱 ， 
尚 无 专门 讨论 单 题 项 测量 的 研究 , 这 不 利于 国内 研究 者 了 解 单 题 项 测量 的 最 新 发 展 动 同 , 也 
不 利于 国内 研究 者 正确 合理 地 使 用 单 题 项 测量 。 基 于 此 , 本 文 对 单 题 项 测量 的 发 展 与 应 用 进 
行 了 系统 回顾 ， 阐 述 了 单 题 项 测量 的 优 缺 点 ， 放 析 了 以 往 研究 的 质疑 并 逐一 进行 回应 ， 最 后 
指出 了 单 题 项 测量 开发 和 使 用 过 程 中 应 该 注意 的 事项 。 


1 单 题 项 测量 的 优 缺 点 


1.1 单 题 项 测量 的 优点 

尽管 多 题 项 测量 仍 是 当前 管理 心理 学 研究 中 的 主流 测量 方法 ， 但 在 收集 数据 的 过 程 中 ， 
与 多 题 项 测量 相 比 , 单 题 项 测量 能 够 节约 时 间 和 资金 成 本 (Bergkvist & Rossiter, 2007; Franke, 
Rapp, & Andzulis, 2013; Gogol et al., 2014; Robins, Hendin, & Trzesniewski, 2001), 降低 样本 偏 
差 并 改善 数据 质量 (Postmes, Haslam, & Jans, 2013)。 
1.1.1 节约 时 间 
单 题 项 测量 在 时 间 上 的 优势 不 言 而 喻 ， 更 少 的 题 项 会 花费 答题 者 更 少 的 时 间 (Bergkvist 
& Rossiter, 2007)。 这 种 时 间 上 的 优势 使 得 单 题 项 测量 具有 更 高 的 灵活 性 Konstabel, Lönnqvist, 
Walkowitz, Konstabel, & Verkasalo, 2012)。 研究 者 常常 会 面 对 一 些 特殊 的 研究 问题 (如 压力 、 
术 后 的 疼痛 感 等 和 研究 人 群 ( 如 老人、 儿童、 病人、 医生 等 )。 这 些 问 题 和 人 和 群 的 特殊 性 
可 能 会 对 研究 者 带 来 时 间 上 的 挑战 (Fisher et al., 2016; Gogol et al., 2014; Postmes et al., 2013). 
比如 ,调查 一 个 癌症 病人 的 心理 压力 时 ,使 用 多 题 项 测量 会 增加 病人 的 答题 时 间 ， 这 可 能 会 
加 重病 人 的 心理 压力 ， 进 而 给 病人 带 来 较为 负面 的 影响 。 此 时 ， 使 用 单 题 项 测量 往往 能 够 取 
得 较为 理想 的 效果 。 
1.1.2 降低 资金 投入 

研究 者 对 答题 者 的 报酬 通常 视 答题 者 完成 题 项 的 数目 而 定 (Wanous et al., 1997)， 这 是 调 
查 研究 中 常用 的 规则 。 在 使 用 多 题 项 测量 时 ,研究 者 不 仅 需 要 加 大 在 问卷 印刷 过 程 中 的 资金 
投入 (Gogol et al., 2014)， 还 需要 支付 相对 较 多 的 激励 费用 ， 从 而 确保 答题 者 能 够 认真 完成 问 
卷 。 同 时 ， 多 题 项 测量 会 导致 无 效 问卷 数量 增加 (Postmes et al., 2013)， 这 些 由 于 答题 者 的 不 
认真 所 造成 的 无 效 问卷 也 会 增加 研究 者 的 资金 投入 。 单 题 项 测量 则 可 以 较 好 地 避免 上 述 问题 ， 
因此 更 具 经 济 性 。 
1.1.3 降低 样本 偏差 

由 于 答题 时 间 大 幅 缩短 ， 单 题 项 测量 可 以 有 效 地 降低 样本 偏差 (Postmes et al., 2013)。 对 
于 多 题 项 测量 而 言 , 很 多 人 不 愿意 花费 时 间 去 完成 一 份 看 起 来 和 自己 利益 无 关 且 很 长 的 问卷 。 
因此 ， 在 选择 样本 的 时 候 ， 时 间 因 素 可 能 会 促使 研究 者 们 寻找 一 些 有 较 多 空闲 时 间 的 个 体 ， 
这 就 造成 了 样本 偏差 。 与 之 相反 ， 包 含 单 题 项 测量 的 问卷 通常 较 短 ， 这 会 降低 拒 访 率 
(Bergkvist & Rossiter, 2007)。 单 题 项 测量 对 答题 者 的 时 间 要 求 很 低 , 这 样 在 选择 样本 的 时 候 ， 
究 者 可 以 选择 更 加 多 样 化 的 个 体 ， 从 而 有 效 地 降低 样本 偏差 (Postmes et al., 2013). 
1.1.4 提升 数据 收集 质量 
使 用 单 题 项 测量 可 以 通过 节省 样本 的 时 间 消 耗 来 保证 数据 收集 的 有 效 性 。 一 方面 , 包含 
大 量 多 题 项 测量 的 问卷 会 比较 见长 , 这 可 能 会 导致 答题 者 精力 无 法 持续 集中 , 使 得 他 们 对 靠 
后 的 题 项 需要 花费 更 多 时 间 来 阅读 和 理解 (Postmes et al., 2013)， 从 而 产生 厌烦 感 和 枯燥 感 。 
在 这 种 情形 下 , 答题 者 可 能 不 会 认真 地 对 竺 问题, 而 是 抱 着 一 种 敷衍 的 态度 (Bergkvist, 2015; 
Bergkvist & Rossiter, 2007; Credé et al., 2012; Gogol et al., 2014; Zimmerman et al., 2006)， 并 对 
最 终 的 数据 质量 产生 极 大 的 影响 。 相 反 ， 由 于 单 题 项 测量 花费 时 间 较 短 ， 不 会 使 答题 者 产生 
较 多 的 厌烦 感 ， 因 此 答题 者 会 更 认真 地 阅读 和 回答 问题 (Linden & Rosenthal, 2016)。 男 一 方 
I, 在 数据 收集 完成 之 后 的 整理 和 处 理 过 程 中 ， 多 题 项 测量 不 仅 会 带 来 更 多 的 工作 量 ， 还 会 
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增加 研究 者 的 犯错 概率 (Reysen, Katzarska-Miller, Nesbit, & Pierce, 2013)， 而 单 题 项 测量 可 以 
为 研究 者 省 去 许多 繁琐 的 基础 工作 ， 从 而 保证 工作 的 高 效 性 和 结果 的 准确 性 。 
1.2 单 题 项 测量 的 缺点 

由 于 单 题 项 测量 所 包含 的 信息 较为 有 限 , 它 的 适用 范围 受到 了 限制 。 批 判 者 指出 单 题 项 
测量 在 评价 复杂 构 念 和 抽象 构 念 时 ， 人 往往 存在 较 大 的 局 限 性 (Bergkvist & Rossiter, 2007; 
Fuchs & Diamantopoulos, 2009). 
1.2.1 不 能 充分 反映 复杂 构 念 的 内 涵 

对 于 一 些 多 维度 的 复杂 构 念 而 言 , 单一 题 项 很 难 同时 反映 这 些 多 维 构 念 不 同 维度 的 内 涵 
(Bergkvist & Rossiter, 2007)。 单 题 项 测量 往往 会 忽视 一 些 细节 问题 ， 比 如 ， 当 研究 者 通过 
个 题 项 来 评价 受 访 者 工作 满意 度 的 时 候 , 不 同 的 受 访 者 可 能 会 对 工作 满意 度 的 不 同方 面 进 行 
自动 加 权 处 理 ， 给 出 自己 的 评价 (Fuchs & Diamantopoulos, 2009)。 然 而 ， 不 同 受 访 者 的 关注 
点 各 不 相同 , 对 工作 满意 度 各 方面 的 加 权 处 理 方式 也 不 尽 相 同 , 这 就 导致 研究 者 无 法 判断 工 
作 满 意 度 的 哪个 方面 更 为 重要 (Oshagbemi，1999)。 比 如 ， 同 样 是 工作 满意 度 较 低 的 受 访 者 ， 
一 些 受 访 者 可 能 是 因为 长 期 得 不 到 晋升 而 不 满 , 而 另外 一 些 受 访 者 可 能 是 因为 长 期 被 顾客 无 
理 投 诉 而 不 满 。 显 然 ， 单 题 项 测量 无 法 识别 这 些 具 体 的 信息 。 与 之 对 应 ， 多 题 项 测量 则 能 够 
很 好 地 解决 这 个 问题 。 
1.2.2 不 能 准确 测量 较为 抽象 的 构 念 

与 多 题 项 测量 相 比 ， 单 题 项 测量 仅 适 用 于 评价 那些 足够 具体 的 构 念 ， 如 薪酬 满意 度 、 快 
乐 和 焦虑 (Gogol et al., 2014; Kim & Abraham, 2017; Wanous et al., 1997)。 抽 象 意味 着 构 念 本 身 
的 内 涵 较 为 模糊 ， 如 果 通 过 单 题 项 测量 来 评价 抽象 构 念 , 受 访 者 可 能 会 因为 过 度 的 模糊 性 以 
及 理解 上 的 偏差 而 不 能 做 出 正确 的 判断 (Bergkvist & Rossiter 2007)。 研 究 发 现 ， 受 访 者 对 抽 
象 构 念 的 理解 往往 存在 较 大 的 异 质 性 (Fuchs & Diamantopoulos, 2009)。 对 于 诸如 公司 文化 、 
组 织 公 民 行为 、 公 共 服 务 动机 等 抽象 构 念 而 言 ， 不 同 的 受 访 者 可 能 有 完全 不 同 的 理解 ， 进 而 
导致 测量 的 精度 受到 影响 。 

综 上 , 一 方面 , 单 题 项 测量 可 以 降低 时 间 和 资金 投入 ， 并 通过 降低 答题 者 的 厌烦 感 来 保 
证 数据 的 质量 ， 从 而 提高 整个 研究 的 效率 (Gogol et al., 2014)。 另 一 方面 ， 单 题 项 测量 在 适用 
范围 上 也 存在 一 些 不 足 ， 它 不 适合 用 来 评价 那些 复杂 和 抽象 的 构 念 (Bergkvist & Rossiter, 
2007; Fuchs & Diamantopoulos, 2009)。 然 而 ， 学 界 对 单 题 项 测量 最 大 的 质疑 在 于 很 多 学 
者 认为 单 题 项 测量 的 信 效 度 无 法 得 到 有 效 保证 。 在 学 术 研 究 的 评审 过 程 中 , 使 用 单 题 项 测量 
往往 被 视 为 是 一 个 重大 错误 (Wanous et al., 1997)。 很 多 学 者 在 接受 研究 方法 训练 时 就 被 告知 ， 
应 尽量 避免 使 用 单 题 项 测量 (De Boer et al., 2004), 这 些 先 入 为 主 的 观念 成 为 单 题 项 测量 备 受 
质疑 的 重要 原因 。 然 而 ,， 近 些 年 随 着 学 界 对 单 题 项 测量 数据 质量 的 持续 探索 ,以往 关 于 单 题 
项 测量 信 效 度 方 面 的 质疑 并 没有 得 到 实证 数据 的 验证 ,反而 有 相当 部 分 的 研究 发 现 单 题 项 测 
量具 有 可 以 接受 的 信 效 度 水 平 。 接 下 来 的 部 分 将 着 重 论 述 研究 者 对 单 题 项 测量 信 效 度 方面 的 
质疑 以 及 回应 。 


2 对 单 题 项 测量 信和 度 的 质疑 及 回应 


很 多 研究 者 认为 单 题 项 测量 的 信 度 是 无 法 估计 的 , 且 单 题 项 测量 可 能 会 出 现 较为 严重 的 
测量 误差 ， 因 此 单 题 项 测量 被 多 数 研 究 者 拒 之 门 外 (Gogol et al., 2014; Van Der Linden & 
Rosenthal, 2016)。 事 实 上 , 单 题 项 测量 的 信 度 并 不 是 不 可 估计 , 随 着 单 题 项 测量 研究 的 深入 ， 
关于 单 题 项 测量 信 度 的 证 据 也 越 来 越 多 ， 学 界 需要 重新 看 待 单 题 项 测量 的 信 度 问题 。 

2.1 对 信 度 的 质疑 

信 度 是 衡量 一 个 量 表 可 信 程 度 和 稳定 性 的 重要 指标 (Kim & Abraham, 2017)。 研究 中 最 常 

是 Cronbach’s a 内 部 一 致 性 系数 ， 其 计算 公式 如 下 ; 
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其 中 , 为 测量 题 项 的 数目 ，o 是 第 i 个 题 项 分 数 的 方差 ， 是 量 表 总 分 的 方差 。 

根据 上 述 公 式 ， 计 算 Cronbach’s a 内 部 一 致 性 要 求 题 项 数 必须 大 于 1， 因 此 ， 单 题 项 测 
量 的 Cronbach’s a 内 部 一 致 性 是 无 法 计算 的 。 此 外 ， 有 研究 者 认为 量 表 的 信 度 和 题 项 数量 成 
正比 (Churchill & Peter, 1984), 这 会 导致 单 题 项 测量 的 信 度 比 多 题 项 测量 低 (Gogol et al., 2014; 
Kim & Abraham, 2017; Van Der Linden & Rosenthal, 2016; Wanous et al., 1997) 。 在 变量 测量 过 
FER, 构 念 得 分 的 变异 包括 两 个 部 分 : 真实 得 分 和 随机 测量 误差 。 多 题 项 测量 可 以 通过 各 题 
项 间 相 互 抵 消 的 方式 来 减少 随机 测量 误差 , 而 单 题 项 测量 由 于 只 存在 一 个 题 项 , 无 法 达到 这 
种 效果 (Fu, 2005; Konrath, Meier, & Bushman, 2014; Robins et al., 2001)。 因 此 ， 单 题 项 测量 的 
随机 测量 误差 可 能 会 较为 严重 ， 进 而 导致 单 题 项 测量 的 信 度 较 低 。 
2.2 对 信和 度 的 回应 

尽管 信 度 是 单 题 项 测量 常 被 诉 病 的 一 点 , 但 研究 者 可 以 通过 其 它 的 指标 来 评价 单 题 项 测 
量 的 信和 度 ， 如 再 测 信 和 度 或 者 通过 公式 来 反 推 单 题 项 测量 的 信和 度 (Fisher et al., 2016; Sparrle & 
Bekk, 2014; Wanous et al., 1997). 
2.2.1 再 测 信 和 度 
测 信 和 度 体 现 了 量 表 在 时 间 上 的 稳定 性 , 通常 是 通过 某 个 量 表 在 两 个 时 间 点 得 分 的 相关 
系数 来 计算 (Fisher et al., 2016)。 这 种 方法 是 使 用 最 广 的 衡量 单 题 项 测量 信 度 的 方法 之 一 。 表 
1 列 出 了 60 个 单 维 构 念 单 题 项 测量 的 再 测 信和 度 。 从 表 中 可 以 看 到 ， 单 维 构 念 单 题 项 测量 
测 信 度 高 于 0.70 的 占 比 为 68.33%， 中 位 数 为 0.73， 样 本 加 权 平 均值 为 0.71， 说 明 单 题 项 测 
量 的 信 度 总 体 上 是 可 信 的 。 
2.2.2 反 推 信 度 

研究 样本 中 变量 信 度 的 高 低 会 影响 研究 者 对 变量 间 真 实 关系 的 估计 。 在 科学 研究 中 ,两 
个 变量 的 真实 相关 系数 可 以 通过 信 度 修正 的 样本 相关 系数 求 得 (Postmes et al., 2013)。 真 实 相 
关系 数 与 样本 相关 系数 存在 如 下 关系 (Loo, 2002; Postmes et al., 2013; Wanous et al., 1997): 

Txy 
°F Fy 

FE, ry 是 样本 中 变量 x ER, ry 是 样本 中 变量 y ER, p 是 x 和 y 之 间 的 真实 
相关 系数 ，ry 是 样本 中 x 和 y 的 相关 系数 。 由 于 存在 测量 误差 ， 样本 相关 系数 ry 通常 小 于 
真实 相关 系数 p。 
如 果 假 定 x 和 y 是 评价 某 一 构 念 的 两 个 不 同 测量 ， 其 中 ，x 是 单 题 项 测量 ，y 是 多 题 项 
测量 ， 则 单 题 项 测量 的 信 度 可 以 通过 如 下 公式 来 计算 : 


ERF, 由 于 单 题 项 测量 x 和 多 题 项 测量 y 在 衡量 同一 个 构 念 , 因此 二 者 的 真实 相关 系 
A p 的 最 大 值 为 1Postmes et al., 2013; Wanous & Hudy 2001)。 由 此 可 以 得 到 单 题 项 测量 信 
度 的 最 小 值 : 


2 
以 往 关 于 单 题 项 测量 的 实证 研究 中 多 数 都 报告 了 单 题 项 测量 与 多 题 项 测量 的 相关 系数 

ry 以 及 多 题 项 测量 的 信 度 xr,,， 因 此 ， 研 究 者 可 以 通过 这 种 方式 来 反 推 单 题 项 测量 的 最 低 信 

度 (Loo, 2002; Postmes et al., 2013; Wanous & Hudy, 2001; Wanous et al., 1997). 

通过 使 用 以 上 方法 ， 本 研究 对 以 往 实 证 研究 中 单 题 项 测量 的 最 小 信 度 进行 统计 *， 结 
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WK 1 所 示 。 从 表 中 可 以 看 到 ， 仅 有 15.38% 的 单 维 构 念 最 小 信 度 小 于 0.60， 其 余 的 均 高 于 
0.60， 单 维 构 念 单 题 项 测量 最 小 信和 度 的 中 位 数 为 0.67。 需 要 指出 的 是 ， 最 小 信和 度 并 不 是 单 题 
项 测量 的 实际 信和 度 。 在 实际 操作 过 程 中 ， 单 题 项 测量 的 信 度 通常 高 于 该 最 小 值 。 比 如 ， 根 据 
Núñez-Peña, Guilera 和 Suárez-Pellicioni (2014) 研 究 中 的 数据 推断 数学 焦虑 单 题 项 测量 的 最 小 
信 度 为 0.63， 而 其 文中 报告 的 再 测 信 度 为 0.81， 远 高 于 最 小 信 度 。 然 而 ， 对 于 多 维 构 念 ， 可 
以 看 到 ,其 再 测 信 和 度 和 最 小 信和 度 取 值 普遍 偏 低 。 多 维 构 念 单 题 项 测量 的 再 测 信 度 和 最 低 信 度 
的 中 位 数 分 别 为 0.62 和 0.530， 说 明 单 题 项 测量 在 评价 多 维 构 念 时 ， 可 能 存在 一 些 问题 。 由 
此 可 见 , 单 题 项 测量 的 信 度 并 非 像 之 前 学 者 所 提 到 的 那样 不 可 接受 , 尤其 是 用 来 评价 单 维 构 
念 的 时 候 。 


w 


ae 


表 1 单 题 项 测量 的 信 度 统计 
单 维 构 念 多 维 构 念 
信 度 区 间 再 测 信 度 最 小 信 度 再 测 信 度 最 小 信和 度 
数量 Att BE ”百分比 ”数量 百分比 ”数量 ”百分比 


lin 


小 于 0.60 8 13.33% 2 15.38% 1 33.33% 3 100% 
0.60-0.69 11 18.33% 5 38.46% 2 66.67%  — = 
0.70-0.79 26 43.33% 4 30.77% = = a 一 
0.80-0.89 11 18.33% 1 7.69% = _ = = 
0.90-1.00 4 6.67% 1 7.69% = a = = 
中 位 数 0.73 0.67 0.62 0.50 


Si 3 对 单 题 项 测量 效 度 的 质疑 及 回应 


©) 单 题 项 测量 不 被 接受 的 另外 一 个 原因 就 是 其 效 度 受 到 质疑 。 效 度 是 衡量 一 个 测量 有 效 性 
pan 和 准确 性 的 重要 指标 。 单 题 项 测量 效 度 的 不 足 之 处 主要 体现 在 它 的 不 全 面 性 上 (Fisher et al., 
Al 2016; Oshagbemi, 1999)。 由 于 单 题 项 测量 不 能 够 提供 足够 多 样 和 细致 的 答案 ， 一 些 研 究 者 认 
为 单 题 项 测量 忽略 了 各 个 被 试 之 间 较 为 细微 的 差异 (Bergkvist & Rossiter, 2007; 
de Diamantopoulos et al., 2012; Konrath et al., 2014; Kwon & Trail, 2005), 这 会 造成 测量 结果 的 偏 
E 差 ， 进 而 使 单 题 项 测量 的 解释 力 大 打折 扣 。 反 对 者 主要 从 内 容 效 度 、 构 念 效 度 和 效 标 关联 效 
度 方面 对 单 题 项 测量 提出 质疑 。 
3.1 对 效 度 的 质疑 
3.1.1 对 内 容 效 度 的 质 
内 容 效 度 是 指 测量 工具 对 目标 构 念 内 涵 与 范畴 的 反映 程度 。 从 内 容 效 度 来 看 , PA 
量 通 常 被 用 于 单 维 构 念 的 测量 。 尽管 单 题 项 测量 不 够 全 面 , 但 其 依然 能 够 捕获 单 维 构 念 的 核 
心 内 涵 (Robins et al., 2001)。 比 如 ， 研 究 者 常常 使 用 单 题 项 测量 来 评价 人 们 的 满意 度 、 生 活 
质量 和 幸福 感 等 构 念 (Cheung & Lucas, 2014; De Boer et al., 2004; Zimmerman et al., 2006)。 然 
而 ， 对 于 那些 多 维 构 念 , 为 了 尽 可 能 完全 地 测量 多 维 构 念 的 各 个 方面 ,研究 者 通常 使 用 多 个 
题 项 来 评价 多 维 构 念 的 多 个 维度 。 显然, 单一 题 项 在 反映 多 维 构 念 的 涵义 时 ， 其 不 完全 性 和 
片面 性 尤为 显著 ， 内 容 效 度 也 大 打折 扣 。 
3.1.2 对 构 念 效 度 的 质疑 
构 念 效 度 是 考察 一 个 量 表 是 否 能 够 准确 测量 出 目标 构 念 的 程度 , 通常 通过 聚合 效 度 和 区 
分 效 度 来 反映 (Fisher et al., 2016)。 研究 者 通常 采用 组 合 信 度 和 平均 方差 禁 取 量 来 评价 构 念 测 
量 的 聚合 效 度 和 区 分 效 度 。 由 于 单 题 项 测量 无 法 计算 其 组 合 信 度 和 平均 方差 禁 取 量 
(Wohlgemuth & Wenzel, 2016)， 因 此 ， 不 少 研究 者 认为 无 法 评判 单 题 项 测量 的 聚合 效 度 和 区 
分 效 度 (Fuchs & Diamantopoulos, 2009). 
3.1.3 对 效 标 关 联 效 度 的 质疑 
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从 效 标 关 联 效 度 来 看 ， 单 题 项 测量 对 效 标 变量 所 产生 的 解释 力 可 能 更 小 。 有 学 者 指出 ， 
单 题 项 测量 包含 的 信息 量 非常 有 限 (Fisher et al., 2016; Oshagbemi, 1999)， 无 法 全 面 准确 的 测 
量 单 维 或 者 多 维 构 念 ， 从 而 影响 其 对 相关 变量 的 预测 作用 。 多 题 项 测量 通常 包含 更 多 题 项 和 
信息 , 能 够 更 好 地 反映 研究 构 念 的 本 质 , 因此 具有 更 好 的 预测 效 度 (Gogol et al., 2014; Van Der 
Linden & Rosenthal, 2016). 

正 因 为 上 述 原 因 , 很 多 学 者 对 单 题 项 测量 的 效 度 表 示 担 忧 , 从 而 更 青睐 选择 多 题 项 测量 。 
3.2 对 效 度 的 回应 

尽管 研究 者 对 单 题 项 测量 的 效 度 存在 一 些 质 疑 ,但 这 些 质疑 多 停留 在 思辨 层面 ,事实 上 ， 
近 些 年 已 经 有 相当 一 部 分 实证 研究 发 现 单 题 项 测量 的 效 度 是 可 以 接受 的 (Elo, Leppänen, & 
Jahkola, 2003; Konrath et al., 2014; Konstabel et al., 2017; Kwon & Trail, 2005; Robins et al., 
2001)。 
3.2.1 对 内 容 效 度 的 回应 

不 可 否认 , 多 题 项 测量 可 能 更 加 全 面 , 但 研究 发 现 多 题 项 测量 新 增加 的 题 项 所 产生 的 额 
外 信息 非常 小 (Fuchs & Diamantopoulos, 2009)。 多 题 项 测量 通常 会 设置 多 个 相似 但 又 略 有 区 
别 的 题 项 来 提升 测量 的 全 面 性 ,在 实际 操作 过 程 中 , 这 种 相似 性 往往 会 造成 答题 者 的 厌烦 感 ， 
答题 者 常常 会 在 一 份 问卷 中 选择 相同 选项 (Nair et al., 2016; Robins et al., 2001)， 使 得 多 题 项 
测量 获得 额外 信息 的 可 能 性 下 降 。 此 外 ， 相 似 题 项 的 设置 还 存在 一 个 问题 ， 如 果 这 些 题 项 本 
身 是 有 偏 的 ， 多 次 重复 会 使 这 种 偏差 加 倍 ， 造 成 多 题 项 测量 的 准确 性 进一步 下 降 。 

近期 的 实证 研究 已 经 证 实 ， 单 题 项 测量 在 评价 一 些 构 念 时 具有 可 接受 的 内 容 效 度 (Elo et 
al., 2003; Fisher et al., 2016; Jordan & Turner, 2008; Robins et al., 2001)。 比 如 ，Fisher 等 (2016) 
通过 专家 打分 的 方法 来 评价 单 题 项 测量 的 内 容 效 度 , 结果 发 现 他 们 新 开发 的 单 题 项 测量 拥有 
良好 的 内 容 效 度 。 即 便 是 多 维 构 念 ， 如 果 其 多 个 维度 能 够 构成 一 个 整体 变量 ， 则 单 题 项 测量 
也 能 够 拥有 充足 的 内 容 效 度 (Robins et al., 2001)。 此 外 ， 研 究 者 还 通过 包含 多 个 形容 词 的 表 
述 方式 来 增加 单 题 项 测量 的 内 容 效 度 。 比 如 ，Woods 和 Hampson(2005) 通 过 如 下 反问 计 分 的 
单 题 项 测量 来 评价 大 五 人 格 中 的 外 向 维度 : “xxx 是 一 个 萎 持 的 、 内 向 的 、 不 喜欢 引起 人 们 
注意 且 在 陌生 人 中 比较 害羞 的 人 ”。 他 们 的 结果 也 发 现 该 量 表 与 多 题 项 测量 的 结果 并 无 太 大 
差异 。 
3.2.2 对 构 念 效 度 的 回应 

为 了 回应 单 题 项 测量 构 念 效 度 无 法 评判 的 质疑 , 研究 者 开发 出 了 评判 单 题 项 测量 构 念 效 
度 的 新 方法 。 首 先 ， 在 借鉴 多 特质 多 方法 (MTMM) 抢 阵 的 基础 上 ， 研 究 者 们 通过 计算 单 
题 项 测量 和 相应 的 多 题 项 测量 的 相关 系数 来 衡量 单 题 项 测量 的 聚合 效 度 (Fisher et al., 2016; 
Postmes et al., 2013)， 它 反映 了 单 题 项 测量 能 够 在 多 大 程度 上 代 蔡 多 题 项 测量 。 如 果 单 题 项 
测量 与 多 题 项 测量 具有 较 高 的 相关 性 ， 则 单 题 项 测量 具有 较 高 的 聚合 效 度 。 其 次 ， 研 究 者 通 
过 计算 单 题 项 测量 与 相似 构 念 的 相关 性 来 判断 单 题 项 测量 的 区 分 效 度 (Fisher et al., 2016; 
Nichols & Webster, 2013; Spörrle & Bekk, 2014)。 如 果 单 题 项 测量 与 这 些 相 似 构 念 的 相关 度 较 
低 ， 则 单 题 项 测量 具有 良好 的 区 分 效 度 。 

为 了 更 好 地 展示 单 题 项 测量 的 构 念 效 度 , 本 研究 通过 元 分 析 的 方法 对 以 往 实 证 研究 的 聚 
合 效 度 和 区 分 效 度 进行 了 定量 整合 。 表 2 列 出 了 单 题 项 测量 的 聚合 效 度 与 区 分 效 度 的 定量 
分 析 结 果 。 表 中 的 聚合 效 度 代 表 了 单 题 项 测量 与 多 题 项 测量 的 相关 系数 ,区 分 效 度 代表 了 单 
题 项 测量 与 相似 构 念 之 间 的 相关 性 。 从 表 中 可 以 看 到 ， 单 题 项 测量 与 多 题 项 测量 高 度 相 关 
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3 表 2 和 表 3 中 用 于 元 分 析 的 文献 已 在 参考 文献 中 标注 星 号 (*), HERE SEE EE Web of Science Ail Google 
Scholar 中 检索 获得 的 ， 检 索 时 间 限定 在 1988 年 1 月 -2018 年 6 月 。 效 应 值 编码 工作 由 两 位 作者 独立 开展 ， 
首 轮 一 致 性 率 超过 90%， 不 一 致 的 地 方 由 两 位 作者 共同 核对 修正 。 元 分 析 软 件 为 CMA2.0， 分 析 模 型 为 随 
机 效应 模型 (Borenstein, Hedges, Higgins, & Rothstein, 2011). 
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(p=0.72，p<0.001)， 显 示 出 单 题 项 测量 具有 良好 的 聚合 效 度 。 此 外 ， 单 题 项 测量 与 相似 构 


念 之 间 的 相关 系数 并 不 高 (p=0.22，p<0.001)， 说 明 单 题 项 测量 与 这 些 构 念 之 间 


LA RIRS 


区 分 度 。 因 此 ， 以 往 研究 者 对 单 题 项 测量 构 念 效 度 的 质疑 并 不 成 立 。 
3.2.3 对 效 标 关 联 效 度 的 回应 


即便 是 多 题 项 测量 , PASI SUR A FT BE RS NST. 在 对 构 念 进行 评估 的 过 程 
中 , 好 的 题 项 会 掩盖 不 好 的 题 项 (Bergkvist & Rossiter, 2007; Fisher et al., 2016; Van Der Linden 


& Rosenthal, 2016)。 然 而 ， 单 题 项 测量 通常 是 由 专家 或 者 研究 者 精心 挑选 出 来 的 题 项 ， 通 常 
能 够 避免 不 必要 的 噪音 ， 从 而 保证 构 念 的 预测 效 度 。 此 外 , 许多 研究 者 通过 比较 单 题 项 测量 
和 相应 多 题 项 测量 在 效 标 关 联 效 度 上 的 差异 来 评判 二 者 的 优 劣 ,已 有 相当 数量 的 实证 研究 发 


现 ， 单 题 项 测量 与 相应 的 多 题 项 测量 具有 相似 的 效 标 关 联 效 度 (Ang & Eisend, 2017; Gogol et 
al., 2014; Kwon & Trail, 2005; Riordan et al., 2018; Robins et al., 2001; Woods & Hampson, 


2005)。 为 了 更 好 地 展示 这 一 结果 ， 本 研究 通过 元 分 析 方 法 对 以 往 单 题 项 测量 与 多 题 项 测量 


效 标 关联 效 度 进行 定量 比较 《〈 见 表 3)。 从 表 中 可 以 看 到 ， 单 题 项 测量 和 效 标 变量 之 间 的 关 


A (p=0.12, p<0.001) 与 多 题 项 测量 和 效 标 变量 之 间 的 关系 (p=0.16，p<0.001) 


并 无 明显 


差异 (Og=0.92，p=0.34)。 因 此 ， 单 纯 从 效 标 关联 效 度 的 角度 来 看 ， 多 题 项 测量 并 没有 明显 


优 于 单 题 项 测量 。 


表 2 单 题 项 测量 的 聚合 效 度 与 区 分 效 度 检验 
95% 置 信 区 间 


构 念 关系 k N r p Le Ow 失 安 全 系数 
低 高 
单 题 项 测量 与 多 题 项 测量 
N 45 36930 0.64 0.72*** 0.66 0.77 2790.85*** 151303 
(聚合 效 度 ) 
单 题 项 测量 与 相似 构 念 
51 25225 0.20 0.22*** 0.18 0.26 502.70*** 12479 


(区 分 效 度 ) 


全 系数 大 于 效应 值 数量 x 时， 代表 发 表 偏 差 问题 并 不 严重 。 
表 3 单 题 项 测量 与 多 题 项 测量 的 效 标 关 联 效 度 比 较 
95% 置 信 区 间 


TE: *** 表 示 p<0.001, k 表示 效应 值 数量 ，N 为 效应 值 对 应 的 样本 量 加 总 ，r 为 没有 经 过 信 


度 修 正 的 加 权 相 关 系数 ，p 为 经 过 信和 度 修正 的 加 权 相 关 系数 ，QOw 为 组 内 异 质 性 检验 指标 ， 
内 显著 代表 不 同 研究 效应 值 存在 显著 不 同 ; 失 安 全 系数 用 来 评估 发 表 偏差 严重 程度 ， 当 失 安 


构 念 关系 k N r p pa Qw Qs ” 失 安 全 系数 
低 高 
单 题 项 测量 与 效 标 63 70478 0.11 0.12*** 0.07 0.18 2514.96*** 8323 
多 题 项 测量 与 效 标 79 71872 0.14 0.16*** 0.11 0.21 3954.72*** 20413 


多 题 项 测量 与 效 标的 关系 存在 显著 差异 ， 其 他 符号 含义 见 表 2。 


4 单 题 项 测量 的 开发 与 使 用 建议 


TE: *** 表 示 p<0.001, On 为 组 间 异 质 性 检验 指标 ， 其 显著 代表 单 题 项 测量 与 效 标的 关系 和 


通过 前 文 的 回顾 ， 可 以 看 到 ， 尽管 单 题 项 测量 具有 一 定 的 局 限 性 , 但 是 本 研究 也 找到 了 


单 题 项 测量 拥有 充分 信 效 度 的 证 据 。 因 此 , 在 文献 支撑 充分 和 实证 证 据 充 足 的 情况 下 ， 研 究 


者 可 以 选取 单 题 项 测量 来 进行 他 们 的 研究 。 
4.1 单 题 项 测量 的 开发 建议 


研究 者 可 以 从 已 有 的 多 题 项 测量 中 选择 一 个 题 项 来 评价 构 念 (Diamantopoulos et al., 
2012; Fisher et al., 2016; Fuchs & Diamantopoulos, 2009; Loo, 2002), 也 可 以 开发 一 个 新 的 题 项 
来 评价 构 念 (Cheung & Lucas, 2014; Gogol et al., 2014; Robins et al., 2001; Van Der Linden & 


Rosenthal, 2016). 


41.1 从 已 有 量 表 中 选择 单 题 项 测量 

研究 者 可 以 从 已 有 表述 较为 接近 或 者 存在 语义 重 登 的 多 题 项 测量 中 选择 因子 载荷 最 高 
的 题 项 作为 单 题 项 测量 的 评价 指标 (Diamantopoulos et al., 2012)。 这 种 方法 相对 较为 客观 , 不 
会 受 人 为 主观 因素 的 和 干扰。 然而 ， 由 于 因子 载荷 最 高 的 题 项 在 不 同样 本 中 可 能 会 有 所 不 同 ， 
究 者 可 以 通过 样本 加 权 平 均 载 荷 的 方法 来 挑选 跨 样 本 最 优 的 题 项 。 此 外 , 研究 者 也 可 以 通 
过 专家 打分 的 方式 从 已 有 的 多 题 项 测量 中 选择 内 容 效 度 最 高 的 题 项 (Aiken，1980; Sarstedt et 
al., 2016; Sarstedt, Diamantopoulos, Salzberger, Baumgartner, & Woodside, 2016)。 研 究 者 可 以 邀 
请 多 位 专家 ， 要 求 他 们 评价 多 题 项 测量 中 每 个 题 项 能 够 在 多 大 程度 上 反映 构 念 的 核心 内 涵 。 
随后 ， 研 究 者 可 以 通过 组 内 一 致 性 指标 (rwg) 计算 专家 打分 的 一 致 性 程度 。 最 后 ， 研 究 者 
可 以 挑选 rwg 得 分 高 于 0.7 且 专 家 打分 平均 分 最 高 的 那个 题 项 作为 最 终 的 单 题 项 测量 指标 。 
4.1.2 开发 新 的 单 题 项 测量 

研究 者 也 可 以 通过 新 开发 的 单 题 项 测量 来 评价 构 念 。 虽 然 从 多 题 项 测量 中 获得 的 题 项 可 
能 与 原来 多 题 项 测量 的 相关 性 更 高 , 在 效 标 关联 效 度 等 指标 上 也 和 原来 的 多 题 项 测量 更 加 接 
近 , 但 从 已 有 多 题 项 测量 中 提取 单 题 项 测量 指标 ， 其 描述 往往 不 如 新 开发 的 单 题 项 测量 指标 
全 面 (Fisher et al., 2016)。 在 产生 新 的 单 题 项 测量 的 时 候 ， 研 究 者 首先 要 对 目标 构 念 有 一 个 正 
确 且 清晰 地 认识 ,才能 够 判断 它 是 否 适用 于 单 题 项 测量 。 研究 者 应 当 意 识 到 ,一 个 好 的 单 题 
项 测量 应 该 具有 以 下 特征 : 能 够 真实 准确 地 反映 构 念 的 核心 内 涵 ， 能 够 适用 于 不 同 的 研究 样 
本 ,能 够 跟 其 他 构 念 有 效 区 分 开 来 (Diamantopoulos et al., 2012)。 因 此 , 在 描述 单 题 项 测量 时 ， 
研究 者 要 根据 构 念 含义 谨慎 其 酌 用 词 。 CE Be EBON PN KART EER BON AE HFS 
时 , 研究 者 更 应 当 慎 重 。 否则 ， 单 题 项 测量 表述 的 笼统 性 以 及 研究 构 念 的 专业 性 会 导致 被 调 
查 者 无 法 理解 研究 者 所 要 测量 的 构 念 , 这 就 需要 研究 者 对 所 测量 的 构 念 进行 额外 的 书面 或 者 
口头 解释 ， 反 和 而 会 浪费 更 多 的 时 间 (Crede et al., 2012). 

需要 指出 的 是 , 当前 实证 证 据 并 没有 发 现 单 题 项 测量 的 量 尺 会 对 测量 结果 产生 显著 的 影 
响 (Kim & Abraham, 2017; Robins et al., 2001), AE, 研究 者 不 必 过 分 担心 量 尺 所 带 来 的 研究 
结果 的 不 确定 。 
4.2 单 题 项 测量 的 使 用 建议 

研究 者 不 应 一 味 地 抵制 单 题 项 测量 ， 应 当 看 到 其 潜在 的 优点 。 与 此 同时 ， 研 究 者 也 应 当 
清醒 地 认识 到 ， 单 题 项 测量 并 非 在 每 种 情况 下 都 适用 。 
4.2.1 单 题 项 测量 更 适合 单 维 构 念 

与 多 维 构 念 相 比 , 单 题 项 测量 更 适合 那些 单一 维度 的 构 念 。 在 管理 心理 学 的 很 多 研究 中 ， 

究 构 念 通常 包含 多 个 不 能 整合 的 维度 ， 比 如 人 格 、 冲 突 管理 风格 等 。 此 时 ， 单 题 项 测量 只 
有 一 个 题目 , 其 包含 的 信息 量 非 常 有 限 , 也 很 难 通过 一 个 题 项 来 全 面 反 映 多 维 构 念 的 各 个 维 
度 。 然 而 ， 如 果 多 维 构 念 的 多 个 维度 能 够 构成 一 个 整体 变量 〈 比 如 ， 整 体 自尊 )， 单 题 项 测 
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量 也 是 可 以 使 用 的 (Robins et al., 2001). 
4.2.2 单 题 项 测量 更 适合 足够 具体 且 清 晰 的 构 念 


与 过 于 宽泛 、 模 糊 的 构 念 相 比 ， 单 题 项 更 适合 测量 足够 具体 的 构 念 。 在 社会 科学 中 ， 有 
些 研究 构 念 较为 抽象 ， 比 如 “正念 ”， 大 众 对 此 类 构 念 的 了 解 非常 有 限 ， 不 适合 通过 单 题 项 
的 方式 来 测量 。 尽 管 单 题 项 测量 不 太 适 合 评价 多 维 构 念 , 但 如 果 多 维 构 念 的 每 个 维度 足够 清 
晰 ， 研 究 者 可 以 使 用 单 题 项 测量 来 评价 多 维 构 念 的 每 一 个 维度 。 比 如 ， 研 究 者 经 常 使 用 单 题 
项 测量 来 评价 大 五 人 格 中 的 每 一 种 人 格 (Konstabel et al., 2017; Konstabel et al., 2012; Woods 
& Hampson, 2005)， 也 会 使 用 单 题 项 测量 来 评价 人 们 的 态度 《〈 如 工作 满意 度 、 生 活 满意 度 ) 
(Cheung & Lucas, 2014; De Boer et al., 2004; Zimmerman et al., 2006) 和 情绪 ( 喜 怒 哀乐 ) 类 构 
@ (Fisher & To, 2012; Riordan et al., 2018). 
4.2.3 单 题 项 测量 更 适合 时 间 受 限 的 研究 


当 研究 者 面临 一 定 的 资源 和 时 间 限 制 时 , 可 以 考虑 使 用 单 题 项 测量 对 相关 构 念 进行 测量 。 
使 用 单 题 项 测量 不 仅 能 够 有 效 地 节约 时 间 , 还 能 够 很 好 地 解决 由 于 时 间 问 题 而 引发 的 样本 偏 
差 、 资 源 浪费 、 不 认真 作答 等 问题 。 单 题 项 测量 更 加 适用 于 对 时 间 要 求 较 高 的 实验 研究 、 纵 
贯 研究 和 经 验 取 样 法 类 研究 (Konstabel et al., 2012; Robins et al., 2001)。 在 不 少 实验 研究 中 ， 
为 了 保证 实验 操控 的 效果 并 减少 无 关 因 素 的 干扰 , 减少 实验 持续 的 时 间 , 研究 者 都 采取 单 题 
项 测量 的 方法 来 收集 数据 。 对 于 纵 贯 研究 和 经 验 取 样 法 类 研究 , 研究 者 通常 需要 在 一 定时 期 
的 特定 时 间 点 重复 收集 数据 (Fisher & To, 2012), 使 用 单 题 项 测量 能 够 显著 降低 答题 者 的 烦躁 
感 和 敷衍 程度 (Fisher et al., 2016). 

4.2.4 单 题 项 测量 更 适合 大 样本 研究 

当前 主流 的 跨国 大 样本 跟踪 调查 研究 有 很 多 《〈 如 世界 价值 观 调查 )。 由 于 涉及 到 很 多 国 
家 的 受 访 者 , 研究 者 希望 尽 可 能 多 的 收集 数据 ， 导 致 这 些 调查 会 涉及 很 多 研究 构 念 。 如 果 此 
类 调查 问卷 全 部 采取 多 题 项 测量 的 方式 来 衡量 , 将 会 给 被 调查 者 带 来 极 大 的 负担 。 对 于 大 样 
本 调查 研究 而 言 , 减轻 参与 者 的 负担 是 研究 者 首要 考虑 的 问题 (Cheung & Lucas, 2014), 单 题 
项 测量 将 能 够 很 好 地 解决 这 个 问题 。 单 题 项 能 够 保证 关注 尽 可 能 多 的 研究 构 念 , 同时 又 能 最 
大 限度 地 降低 被 调查 者 的 心理 负担 。 因 此, 单 题 项 测量 往往 是 大 样本 研究 常用 的 构 念 评价 方 
法 。 

4.2.5 单 题 项 测量 更 适合 研究 中 的 非 核心 构 念 

如 果 一 个 构 念 并 非 研究 者 关注 的 重点 , 或 者 对 其 准确 程度 要 求 并 不 高 ， 比 如 作为 一 个 控 
制 变量 ， 研 究 者 可 以 优先 考虑 使 用 单 题 项 测量 (Fisher et al., 2016; Fuchs & Diamantopoulos, 
2009)。 这 样 可 以 让 研究 者 选择 尽 可 能 多 的 控制 变量 ， 并 在 这 些 已 有 研究 的 基础 上 更 好 地 阐 
释 自 己 研 究 变量 的 独 有 贡献 。 


5 结论 


通过 定性 和 定量 的 回顾 , 本 研究 总 结 了 单 题 项 测量 的 优 缺 点 , 并 对 学 界 关 于 单 题 项 测量 
信 效 度 的 种 种 质疑 进行 了 回应 。 研究 发 现 单 题 项 测量 具有 可 以 接受 的 信和 度 和 效 度 水 平 , 且 多 
题 项 测量 的 效 标 关 联 效 度 并 没有 显著 优 于 单 题 项 测量 。 尽 管 多 题 项 测量 仍 是 当前 研究 界 的 主 
流 测量 方法 , 但 未 来 研究 者 应 当 更 加 客观 地 看 竺 单 题 项 测量 。 研 究 者 应 当 看 到 单 题 项 测量 潜 
在 的 优点 和 适用 范围 , 从 而 使 单 题 项 测量 在 管理 心理 学 和 社会 科学 研究 中 发 挥 其 应 有 的 作用 。 
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附录 : 定量 分 析 文 献 查找 、 编 码 及 分 析 过 程 
1、 文 献 查找 过 程 

研究 者 在 Web of Science、 谷 歌 学 术 、EBSCO、Springer、Sage、Elsevier、CNKI 和 百 
度 学 术 等 数据 库 检 索 已 发 表 的 单 题 项 测量 的 文献 ， 检 索 的 关键 词 为 single-item measure 〈 单 
题 项 测量 ) 或 single-indicator measure《〈 单 指标 测量 )， 时 间 限 定 在 1988 年 1 月 -2018 年 6 H 
之 间 发 表 的 文献 。 此 外 ,我 们 还 通过 阅读 一 些 单 题 项 测量 的 综述 类 文章 进行 查 漏 补缺 ， 以 确 
保 包 含 尽 可 能 多 的 单 题 项 测量 文章 。 在 检索 到 的 文章 中 ， 只 要 满足 如 下 任 一 标准 , 均 纳 入 了 
我 们 的 定量 分 析 : (1) 报告 了 单 题 项 测量 的 再 测 信和 度 ;(2) 报告 了 单 题 项 测量 与 相同 构 念 多 
题 项 测量 的 相关 系数 ; 〈3) 报告 了 单 题 项 测量 与 相似 构 念 的 相关 系数 ;4) 报告 了 单 题 项 测 
量 以 及 多 题 项 测量 与 一 些 效 标 变 量 的 相关 系数 。 根 据 这 些 标准 ， 我 们 一 共 筛 选 出 了 29 篇 符 
合 要 求 的 单 题 项 测量 定量 研究 论文 。 纳 入 分 析 的 文章 一 共 报告 了 79 个 与 信 度 相关 的 数值 ， 
45 个 检验 聚合 效 度 的 效应 值 ，51 个 检验 区 分 效 度 的 效应 值 ，63 个 单 题 项 测量 的 效 标 关 联 效 
度 效 应 值 以 及 79 个 多 题 项 测量 的 效 标 关 联 效 度 效应 值 。 
2、 变 量 编码 过 程 

两 位 研究 者 首先 依据 上 述 编 码 标准 独立 开展 效应 值 编 码 工作 , 首 轮 一 致 性 率 超过 90% 
对 于 编码 过 程 中 出 现 的 不 一 致 , 两 位 作者 共同 核对 后 进行 修正 , 最 终 形成 了 一 致 的 编码 结 
在 信 度 编码 过 程 中 ， 单 题 项 测量 的 再 测 信 度 主要 用 于 再 测 信 度 的 统计 。 此 外 ， 如 果 文 章 既 报 
告 了 单 题 项 测量 与 相同 构 念 多 题 项 测量 的 相关 系数 , 又 报告 了 相同 构 念 多 题 项 测量 的 信和 度 系 
数 ， 我 们 可 以 依据 这 些 数 据 计 算 单 题 项 测量 反 推 的 最 小 信 度 〈 计 算 公 式 详 见 正文 2.2.2 节 )。 
在 效 度 编码 过 程 中 , 如 果 作 者 分 别 用 单 题 项 测量 和 多 题 项 测量 来 评价 同一 构 念 , 且 文 中 报告 
了 二 者 的 相关 系数 , 我 们 可 以 依据 此 数据 来 计算 聚合 效 度 的 加 权 平 均 效 应 值 。 如 果 文 章 报告 
了 单 题 项 测量 与 相似 构 念 的 相关 系数 , 我 们 可 以 依据 此 数据 来 计算 区 分 效 度 的 加 权 平 均 效 应 
值 。 如果 文 章 报 告 了 单 题 项 测量 以 及 多 题 项 测量 与 一 些 效 标 变 量 的 相关 系数 , 我 们 可 以 据 此 
统计 效 标 关 联 效 度 的 加 权 平 均 效 应 值 , 并 对 单 题 项 测量 和 多 题 项 测量 效 标 关 联 效 度 的 差异 进 
行 检验 。 当 同一 个 样本 同一 个 构 念 出 现 多 个 相似 测量 时 , 本 研究 将 这 些 相 似 测 量 的 效应 值 进 
行 合并 ,以 减少 人 为 扩大 样本 量 而 对 研究 结果 造成 的 干扰 。 此 外 ,我 们 还 收集 了 多 题 项 测量 
的 信和 度 ， 并 对 效应 值 进行 了 基于 测量 误差 的 修正 。 对 于 那些 未 报告 信和 度 值 的 多 题 项 测量 , 我 
们 以 其 他 多 题 项 测量 的 平均 加 权 信 和 度 (0.762) 来 蔡 代 其 信 度 水 平 。 
3、 分 析 过 程 

本 研究 单 题 项 测量 的 信 度 分 析 为 频数 统计 ， 结 果 详 见 正文 表 1。 单 题 项 测量 的 效 度 分 析 
为 元 分 析 ， 分 析 软 件 为 CMA2.0， 元 分 析 结 果 详 见 正文 表 2 与 表 3。 在 元 分 析 的 过 程 中 ， 我 
们 通过 失 安 全 系数 来 检验 本 研究 所 涵盖 论文 发 表 偏差 问题 的 严重 程度 ,正文 表 2 和 表 3 结 
显示 , 每 组 分 析 的 失 安 全 系数 均 大 于 其 对 应 的 效应 值 数量 , 说 明 本 研究 的 发 表 偏 差 问 题 并 不 
严重 。 在 元 分 析 模 型 的 选择 上 ， 根 据 Borenstein, Hedges, Higgins 和 Rothstein(2011) 的 建议 ， 
我 们 选取 了 随机 效应 模型 。 该 模型 假定 不 同 研究 中 的 效应 值 是 随机 变化 的 , 而 非 固 定 不 变 的 ， 
与 现实 情况 的 吻合 度 更 高 。 
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Abstract: Single-item measures have long been debated by researchers. Proponents advocate the 
efficiency of single-item measures, while opponents question reliability and validity of them. 
Through comprehensive qualitative and quantitative reviews, advantages and disadvantages of 
single-item measures are summarized, and doubts and debates in the literature are analyzed and 
responded specially. Through systematic review, results show that single-item measures have 
acceptable level of reliability and validity. More notably, the criterion-related validity of 
multi-item measures is not superior than single-item measures. With the review and current 
findings, issues that should be noted during the development and usage of single-item measures 
were addressed. Although multi-item measures are more acceptable, single-item measures may 
also have its legitimacy in academic research. That is, researchers should value the potential 
advantages and application scope of single-item measures, so that single-item measures can play 


its appropriate role in managerial psychology and social science research. 
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